install.packages ('openintro')Estadística I, Clase 1: Describir los Datos
Ejecución de funciones que contiene el lenguaje R para análisis descriptivo de los datos
Instalación de paquetes necesarios
Previo a iniciar el análisis, se van a instalar algunos paquetes necesarios para poder realizar el análisis. En este caso el paquete opeintro que contiene distintos conjuntos de datos que se usarán a lo largo del curso
Luego de instalar los paquetes es necesario cargarlos en el ambiente de trabajo
library (dplyr)
library (openintro)El paquete dplyr se usa para la manipulación de datos en R y es de gran utilidad. Él nos permitirá seleccionar variables, modificarlas, crear nuevos atributos, así como otra gran cantidad de funcionalidades de las cuales sólo usaremos unas pocas en este curso, al no ser el mismo de programación.
El otro paquete que se cargó es openintro que fue instalado anteriormente.
Conjunto de Datos Seleccionado
Estaremos trabajando con el conjunto stent30 y stent365.
Primero usaremos la función head para ver las primeras 6 filas. Es importante ver que luego de enununciar la función usamos el paréntesis para indicar el nombre del conjunto de datos.
head(stent30)head(stent365)Si queremos ver las últimas filas se usa la función tail.
tail(stent30)Si queremos generar para este conjunto de datos una tabla de contingencia se usa la función table. Una tabla de contigencia muestra el resumen de los datos de dos variables categóricas en forma cruzada. Ver https://es.wikipedia.org/wiki/Tabla_de_contingencia
table(stent30)table(stent365)Usando R como una calculadora
Sumar
214 + 191Dividir
191/(214 + 191)Inspeccionar Conjunto de Datos Loans
Si queremos obtener ayuda sobre una función o queremos saber cuáles datos contiene un conjunto de datos, podemos usar la función ?
?loan50?head# el numeral se usa para colocar comentarios en los códigos.
# vamos a inspeccionar las primeras filas del conjunto de datos (c.d.) loan50
head(loan50)Vamos a usar la función select para seleccionar solo unas columnas de nuestro c.d. loan50.
loan50%>%
sample_n(10)%>%
select(loan_amount,
interest_rate,
term,
grade,
state,
total_income,
homeownership)La función sample_n acompañada del argumento 10 se usó para seleccionar aleatoriamente 10 observaciones del c.d.
Ahora debemos indicar para cada una de las columnas el tipo de variable que tenemos representada.
Otras funciones de interés
mean: permite obtener el promedio para una serie de datos.sum: permite sumar todos los valores de una serie de datos
mean(loan50$interest_rate)el operador $ se usa para acceder a todos los valores que tiene una columna de un c.d.
loan50$interest_ratesum(loan50$loan_amount)Podemos ver con sum(loan50$loan_amount) la suma de todos los montos otorgados en prestamos.
Tabla de Contingencia para C.D. con Múltiples Tipos de Datos
Si queremos crear una tabla resumen del atributo homeownership (tipo propietario), llamamos a loan50 y usamos el operador $ para seleccionar la variable homeownership.
table(loan50$homeownership)Si queremos crear una tabla de contigencia para las variables homeownership y grade (grado de la hipoteca), usamos nuevamente la función table y llamamos a las dos variables
table(loan50$homeownership,
loan50$grade)Gráficos de Dispersión
Sirven para observar las posibles relaciones que se presenten entre dos variables de tipo numéricas que pertenezcan a un conjunto de datos.
En R se pueden generar con la función plot teniendo de argumento las dos variables que se quieren representar.
Para observar el comportamiento de las variables se usará el conjunto de datos county.
plot(x = county$median_hh_income,
y = county$pop_change)Se genera un gráfico donde cada punto corresponde a los valores presentes para una observación en cada variable.
Otro ejemplo lo podemos representar con:
plot(y = county$homeownership,
x = county$multi_unit,
col='blue')En la representación anterior se incluyó el argumento col='blue' para que los puntos se representen en color azul.